Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Classification structurée pourl’apprentissage par renforcement inverse

Identifieur interne : 001445 ( Main/Exploration ); précédent : 001444; suivant : 001446

Classification structurée pourl’apprentissage par renforcement inverse

Auteurs : Edouard Klein [France] ; Bilal Piot [France] ; Matthieu Geist [France] ; Olivier Pietquin [France]

Source :

RBID : ISTEX:35982EDEC33E25955D77DD64143B5600935CBEAB

Abstract

Cette contribution traite le problème de l’apprentissage par renforcement inverse (ARI), défini comme la recherche d’une fonction de récompense pour laquelle le comportement d’un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l’expert comme la paramétrisation d’une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l’expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d’ARI existants, SCIRL n’a pas besoin de résoudre le problème direct de l’apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l’expert. Nous illustrons cela sur un simulateur de conduite.
This paper adresses the inverse reinforcement learning (IRL) problem, that is inferring a reward for which a demonstrated expert behavior is optimal. We introduce a new algorithm, SCIRL, whose principle is to use the so-called feature expectation of the expert as the parameterization of the score function of a multiclasse classifier. This approach produces a reward function for which the expert policy is provably near-optimal. Contrary to most of existing IRL algorithms, SCIRL does not require solving the direct RL problem. Moreover, with an appropriate heuristic, it can succeed with only trajectories sampled according to the expert behavior. This is illustrated on a car driving simulator.

Url:
DOI: 10.3166/ria.27.155-169


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Classification structurée pourl’apprentissage par renforcement inverse</title>
<author>
<name sortKey="Klein, Edouard" sort="Klein, Edouard" uniqKey="Klein E" first="Edouard" last="Klein">Edouard Klein</name>
</author>
<author>
<name sortKey="Piot, Bilal" sort="Piot, Bilal" uniqKey="Piot B" first="Bilal" last="Piot">Bilal Piot</name>
</author>
<author>
<name sortKey="Geist, Matthieu" sort="Geist, Matthieu" uniqKey="Geist M" first="Matthieu" last="Geist">Matthieu Geist</name>
</author>
<author>
<name sortKey="Pietquin, Olivier" sort="Pietquin, Olivier" uniqKey="Pietquin O" first="Olivier" last="Pietquin">Olivier Pietquin</name>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:35982EDEC33E25955D77DD64143B5600935CBEAB</idno>
<date when="2013" year="2013">2013</date>
<idno type="doi">10.3166/ria.27.155-169</idno>
<idno type="url">https://api.istex.fr/ark:/67375/HT0-KC108LJR-T/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">000C62</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">000C62</idno>
<idno type="wicri:Area/Istex/Curation">000C54</idno>
<idno type="wicri:Area/Istex/Checkpoint">000070</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">000070</idno>
<idno type="wicri:doubleKey">0992-499X:2013:Klein E:classification:structuree:pourl</idno>
<idno type="wicri:Area/Main/Merge">001456</idno>
<idno type="wicri:Area/Main/Curation">001445</idno>
<idno type="wicri:Area/Main/Exploration">001445</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a" type="main" xml:lang="fr">Classification structurée pourl’apprentissage par renforcement inverse</title>
<author>
<name sortKey="Klein, Edouard" sort="Klein, Edouard" uniqKey="Klein E" first="Edouard" last="Klein">Edouard Klein</name>
<affiliation wicri:level="1">
<country xml:lang="fr">France</country>
<wicri:regionArea>LORIA - équipe ABC Nancy</wicri:regionArea>
</affiliation>
<affiliation wicri:level="1">
<country xml:lang="fr">France</country>
<wicri:regionArea>Supélec - Groupe de recherche IMS-MaLISMetz</wicri:regionArea>
</affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Piot, Bilal" sort="Piot, Bilal" uniqKey="Piot B" first="Bilal" last="Piot">Bilal Piot</name>
<affiliation wicri:level="1">
<country xml:lang="fr">France</country>
<wicri:regionArea>Supélec - Groupe de recherche IMS-MaLISMetz</wicri:regionArea>
</affiliation>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>UMI2958 (GeorgiaTech-CNRS), Metz</wicri:regionArea>
<placeName>
<region type="region">Grand Est</region>
<region type="old region">Lorraine (région)</region>
<settlement type="city">Metz</settlement>
</placeName>
</affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Geist, Matthieu" sort="Geist, Matthieu" uniqKey="Geist M" first="Matthieu" last="Geist">Matthieu Geist</name>
<affiliation wicri:level="1">
<country xml:lang="fr">France</country>
<wicri:regionArea>Supélec - Groupe de recherche IMS-MaLISMetz</wicri:regionArea>
</affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
<author>
<name sortKey="Pietquin, Olivier" sort="Pietquin, Olivier" uniqKey="Pietquin O" first="Olivier" last="Pietquin">Olivier Pietquin</name>
<affiliation wicri:level="1">
<country xml:lang="fr">France</country>
<wicri:regionArea>Supélec - Groupe de recherche IMS-MaLISMetz</wicri:regionArea>
</affiliation>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>UMI2958 (GeorgiaTech-CNRS), Metz</wicri:regionArea>
<placeName>
<region type="region">Grand Est</region>
<region type="old region">Lorraine (région)</region>
<settlement type="city">Metz</settlement>
</placeName>
</affiliation>
<affiliation wicri:level="1">
<country wicri:rule="url">France</country>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j" type="main">Revue d'Intelligence Artificielle</title>
<title level="j" type="abbrev">Rev. Int. Artificielle</title>
<idno type="ISSN">0992-499X</idno>
<idno type="eISSN">1958-5748</idno>
<imprint>
<publisher>Lavoisier</publisher>
<date type="published" when="2013-03">2013</date>
<biblScope unit="vol">27</biblScope>
<biblScope unit="issue">2</biblScope>
<biblScope unit="page" from="155">155</biblScope>
<biblScope unit="page" to="169">169</biblScope>
<biblScope unit="page-count">16</biblScope>
<biblScope unit="ref-count">0</biblScope>
<biblScope unit="fig-count">0</biblScope>
<biblScope unit="table-count">0</biblScope>
</imprint>
<idno type="ISSN">0992-499X</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0992-499X</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cette contribution traite le problème de l’apprentissage par renforcement inverse (ARI), défini comme la recherche d’une fonction de récompense pour laquelle le comportement d’un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l’expert comme la paramétrisation d’une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l’expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d’ARI existants, SCIRL n’a pas besoin de résoudre le problème direct de l’apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l’expert. Nous illustrons cela sur un simulateur de conduite.</div>
<div type="abstract" xml:lang="en">This paper adresses the inverse reinforcement learning (IRL) problem, that is inferring a reward for which a demonstrated expert behavior is optimal. We introduce a new algorithm, SCIRL, whose principle is to use the so-called feature expectation of the expert as the parameterization of the score function of a multiclasse classifier. This approach produces a reward function for which the expert policy is provably near-optimal. Contrary to most of existing IRL algorithms, SCIRL does not require solving the direct RL problem. Moreover, with an appropriate heuristic, it can succeed with only trajectories sampled according to the expert behavior. This is illustrated on a car driving simulator.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Grand Est</li>
<li>Lorraine (région)</li>
</region>
<settlement>
<li>Metz</li>
</settlement>
</list>
<tree>
<country name="France">
<noRegion>
<name sortKey="Klein, Edouard" sort="Klein, Edouard" uniqKey="Klein E" first="Edouard" last="Klein">Edouard Klein</name>
</noRegion>
<name sortKey="Geist, Matthieu" sort="Geist, Matthieu" uniqKey="Geist M" first="Matthieu" last="Geist">Matthieu Geist</name>
<name sortKey="Geist, Matthieu" sort="Geist, Matthieu" uniqKey="Geist M" first="Matthieu" last="Geist">Matthieu Geist</name>
<name sortKey="Klein, Edouard" sort="Klein, Edouard" uniqKey="Klein E" first="Edouard" last="Klein">Edouard Klein</name>
<name sortKey="Klein, Edouard" sort="Klein, Edouard" uniqKey="Klein E" first="Edouard" last="Klein">Edouard Klein</name>
<name sortKey="Pietquin, Olivier" sort="Pietquin, Olivier" uniqKey="Pietquin O" first="Olivier" last="Pietquin">Olivier Pietquin</name>
<name sortKey="Pietquin, Olivier" sort="Pietquin, Olivier" uniqKey="Pietquin O" first="Olivier" last="Pietquin">Olivier Pietquin</name>
<name sortKey="Pietquin, Olivier" sort="Pietquin, Olivier" uniqKey="Pietquin O" first="Olivier" last="Pietquin">Olivier Pietquin</name>
<name sortKey="Piot, Bilal" sort="Piot, Bilal" uniqKey="Piot B" first="Bilal" last="Piot">Bilal Piot</name>
<name sortKey="Piot, Bilal" sort="Piot, Bilal" uniqKey="Piot B" first="Bilal" last="Piot">Bilal Piot</name>
<name sortKey="Piot, Bilal" sort="Piot, Bilal" uniqKey="Piot B" first="Bilal" last="Piot">Bilal Piot</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001445 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001445 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:35982EDEC33E25955D77DD64143B5600935CBEAB
   |texte=   Classification structurée pourl’apprentissage par renforcement inverse
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022